In recent years, vision-centric perception has flourished in various autonomous driving tasks, including 3D detection, semantic map construction, motion forecasting, and depth estimation. Nevertheless, the latency of vision-centric approaches is too high for practical deployment (e.g., most camera-based 3D detectors have a runtime greater than 300ms). To bridge the gap between ideal research and real-world applications, it is necessary to quantify the trade-off between performance and efficiency. Traditionally, autonomous-driving perception benchmarks perform the offline evaluation, neglecting the inference time delay. To mitigate the problem, we propose the Autonomous-driving StreAming Perception (ASAP) benchmark, which is the first benchmark to evaluate the online performance of vision-centric perception in autonomous driving. On the basis of the 2Hz annotated nuScenes dataset, we first propose an annotation-extending pipeline to generate high-frame-rate labels for the 12Hz raw images. Referring to the practical deployment, the Streaming Perception Under constRained-computation (SPUR) evaluation protocol is further constructed, where the 12Hz inputs are utilized for streaming evaluation under the constraints of different computational resources. In the ASAP benchmark, comprehensive experiment results reveal that the model rank alters under different constraints, suggesting that the model latency and computation budget should be considered as design choices to optimize the practical deployment. To facilitate further research, we establish baselines for camera-based streaming 3D detection, which consistently enhance the streaming performance across various hardware. ASAP project page: https://github.com/JeffWang987/ASAP.
translated by 谷歌翻译
Image super-resolution is a common task on mobile and IoT devices, where one often needs to upscale and enhance low-resolution images and video frames. While numerous solutions have been proposed for this problem in the past, they are usually not compatible with low-power mobile NPUs having many computational and memory constraints. In this Mobile AI challenge, we address this problem and propose the participants to design an efficient quantized image super-resolution solution that can demonstrate a real-time performance on mobile NPUs. The participants were provided with the DIV2K dataset and trained INT8 models to do a high-quality 3X image upscaling. The runtime of all models was evaluated on the Synaptics VS680 Smart Home board with a dedicated edge NPU capable of accelerating quantized neural networks. All proposed solutions are fully compatible with the above NPU, demonstrating an up to 60 FPS rate when reconstructing Full HD resolution images. A detailed description of all models developed in the challenge is provided in this paper.
translated by 谷歌翻译
如今,基础模型已成为人工智能中的基本基础设施之一,铺平了通往通用情报的方式。但是,现实提出了两个紧急挑战:现有的基础模型由英语社区主导;用户通常会获得有限的资源,因此不能总是使用基础模型。为了支持中文社区的发展,我们介绍了一个名为Fengshenbang的开源项目,该项目由认知计算与自然语言研究中心(CCNL)领导。我们的项目具有全面的功能,包括大型预培训模型,用户友好的API,基准,数据集等。我们将所有这些都包装在三个子项目中:风水次模型,风水框架和狂热基准。 Fengshenbang的开源路线图旨在重新评估中国预培训的大型大型模型的开源社区,促使整个中国大型模型社区的发展。我们还希望构建一个以用户为中心的开源生态系统,以允许个人访问所需的模型以匹配其计算资源。此外,我们邀请公司,大学和研究机构与我们合作建立大型开源模型的生态系统。我们希望这个项目将成为中国认知情报的基础。
translated by 谷歌翻译
自我监督的单眼方法可以有效地了解弱纹理表面或反射性对象的深度信息。但是,由于单眼几何建模的固有歧义,深度精度受到限制。相反,由于多视图立体声(MVS)的成功,多帧深度估计方法提高了深度准确性,后者直接使用几何约束。不幸的是,MV经常患有无纹理区域,非斜角表面和移动物体,尤其是在没有已知的相机运动和深度监督的现实世界视频序列中。因此,我们提出了MoveEpth,它利用了单眼线索和速度指导来改善多帧深度学习。与现有的MVS深度和单眼深度之间一致性的方法不同,MoveEpth通过直接解决MV的固有问题来增强多帧深度学习。我们方法的关键是利用单眼深度作为几何优先级来构建MVS成本量,并根据预测的相机速度的指导来调整成本量的深度候选。我们通过学习成本量的不确定性来进一步融合单眼深度和MVS深度,从而导致深度估计多视图几何形状的歧义。广泛的实验表明,移动eptth达到了最先进的性能:与monodepth2和packnet相比,我们的方法相对地将深度准确性提高了20 \%和19.8 \%,而Kitti基准测试的方法则提高了。 MoveEpth还推广到更具挑战性的DDAD基准测试,相对超过7.2 \%。该代码可在https://github.com/jeffwang987/movedepth上获得。
translated by 谷歌翻译
大规模数据集在面部生成/编辑的最新成功中扮演着必不可少的角色,并显着促进了新兴研究领域的进步。但是,学术界仍然缺乏具有不同面部属性注释的视频数据集,这对于与面部相关视频的研究至关重要。在这项工作中,我们提出了一个带有丰富面部属性注释的大规模,高质量和多样化的视频数据集,名为高质量的名人视频数据集(CelebV-HQ)。 Celebv-HQ至少包含35,666个视频剪辑,分辨率为512x512,涉及15,653个身份。所有剪辑均以83个面部属性手动标记,涵盖外观,动作和情感。我们对年龄,种族,亮度稳定性,运动平滑度,头部姿势多样性和数据质量进行全面分析,以证明CelebV-HQ的多样性和时间连贯性。此外,其多功能性和潜力在两个代表性任务(即无条件的视频生成和视频面部属性编辑)上得到了验证。此外,我们设想了Celebv-HQ的未来潜力,以及它将带来相关研究方向的新机会和挑战。数据,代码和模型公开可用。项目页面:https://celebv-hq.github.io。
translated by 谷歌翻译
定义和分离癌症亚型对于促进个性化治疗方式和患者预后至关重要。由于我们深入了解,子类型的定义一直在经常重新校准。在此重新校准期间,研究人员通常依靠癌症数据的聚类来提供直观的视觉参考,以揭示亚型的内在特征。聚集的数据通常是OMICS数据,例如与基本生物学机制有很强相关性的转录组学。但是,尽管现有的研究显示出令人鼓舞的结果,但它们却遭受了与OMICS数据相关的问题:样本稀缺性和高维度。因此,现有方法通常会施加不切实际的假设来从数据中提取有用的特征,同时避免过度拟合虚假相关性。在本文中,我们建议利用最近的强生成模型量化量化自动编码器(VQ-VAE),以解决数据问题并提取信息的潜在特征,这些特征对于后续聚类的质量至关重要,仅保留与重建有关的信息相关的信息输入。 VQ-VAE不会施加严格的假设,因此其潜在特征是输入的更好表示,能够使用任何主流群集方法产生出色的聚类性能。在包括10种不同癌症的多个数据集上进行的广泛实验和医学分析表明,VQ-VAE聚类结果可以显着,稳健地改善对普遍的亚型系统的预后。
translated by 谷歌翻译
癌症亚型对于理解肿瘤的性质和提供合适的治疗至关重要。但是,现有的标签方法在医学上是有争议的,并驱动了从教学信号中取代的过程。此外,癌症遗传表达谱是高维,稀缺且具有复杂依赖性的,从而对现有的亚型模型构成了严重的挑战,以输出明智的聚类。在这项研究中,我们提出了一种新型的聚类方法,用于以无监督的方式利用遗传表达谱并区分亚型。所提出的方法自适应地学习了从表达概况的潜在表示对应的分类对应,该对应是通过模型输出的子类型输出。通过最大化问题 - 输入表达曲线和输出亚型之间的不可知论信息,我们的方法可以自动确定合适数量的亚型。通过实验,我们证明了我们提出的方法可以完善现有的有争议的标签,并且通过进一步的医学分析,这种改进被证明与癌症存活率有很高的相关性。
translated by 谷歌翻译
在本文中,我们提出了一种基于沙普利价值的方法来评估用于神经体系结构搜索的操作贡献(Shapley-NAS)。可区分的体系结构搜索(DARTS)通过使用梯度下降优化体系结构参数来获取最佳体系结构,从而大大降低了搜索成本。但是,梯度下降更新的体系结构参数的幅度未能揭示对任务性能的实际操作重要性,因此损害了获得的体系结构的有效性。相比之下,我们建议评估操作对验证准确性的直接影响。为了处理超级核成分之间的复杂关系,我们通过考虑所有可能的组合来利用Shapley的价值来量化其边际贡献。具体而言,我们通过Shapley值评估操作贡献来迭代优化SuperNet权重,并更新体系结构参数,从而通过选择对任务贡献显着贡献的操作来得出最佳体系结构。由于Shapley值的确切计算是NP-HARD,因此采用了基于早期截断的蒙特卡洛抽样算法进行有效的近似,并且采用了动量更新机制来减轻采样过程的波动。在各种数据集和各种搜索空间上进行的广泛实验表明,我们的Shapley-NAS的表现优于最先进的方法,并具有相当大的利润,并具有轻盈的搜索成本。该代码可从https://github.com/euphoria16/shapley-nas.git获得
translated by 谷歌翻译
Graph神经体系结构搜索(Graphnas)最近引起了学术界和工业的关注。但是,两个主要挑战严重阻碍了对石墨的进一步研究。首先,由于实验环境没有共识,因此不同研究论文中的经验结果通常是不可比服的,甚至不可再现,从而导致不公平的比较。其次,石墨通常需要进行广泛的计算,这使得研究人员无法访问大规模计算,这使其高效且无法访问。为了解决这些挑战,我们提出了NAS Bench-Graph,这是一种量身定制的基准测试,该基准支持统一,可重现和有效的Gragennas评估。具体而言,我们构建了一个统一,表现力但紧凑的搜索空间,涵盖26,206个独特的图形神经网络(GNN)体系结构,并提出了原则评估协议。为了避免不必要的重复培训,我们已经在九个代表性的图形数据集上培训和评估了所有这些架构,记录了详细的指标,包括火车,验证和测试性能,每个时期,延迟,参数数量等。基准测试,可以通过查找表直接获得GNN体系结构的性能,而无需任何进一步的计算,这可以实现公平,完全可重现和有效的比较。为了证明其使用情况,我们对我们提出的NAS基础图表进行了深入的分析,从而揭示了一些有关Graphnas的有趣发现。我们还展示了如何轻松地与诸如autogl和nni之类的诸如AutoGL和NNI之类的Graphnas开放库兼容。据我们所知,我们的工作是图形神经架构搜索的第一个基准。
translated by 谷歌翻译
本文提出了一个新颖的框架,以根据权威的睡眠医学指导自动捕获人睡眠的脑电图(EEG)信号的时间频率。该框架由两个部分组成:第一部分通过将输入EEG频谱图将其划分为一系列时频贴片来提取信息特征。第二部分是由基于注意力的体系结构有效地搜索分配的时频贴片和并行睡眠阶段定义因素之间的相关性构成的。拟议的管道在Sleep Heart Health研究数据集上进行了验证,其阶段唤醒,N2和N3的新最新结果获得了相应的F1分数为0.93、0.88和0.87,仅使用EEG信号。该提出的方法还具有高评分者间可靠性为0.80 kappa。我们还可以看到睡眠分期决策与提出方法提取的特征之间的对应关系,为我们的模型提供了强大的解释性。
translated by 谷歌翻译